现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
This paper presents a practical global optimization algorithm for the K-center clustering problem, which aims to select K samples as the cluster centers to minimize the maximum within-cluster distance. This algorithm is based on a reduced-space branch and bound scheme and guarantees convergence to the global optimum in a finite number of steps by only branching on the regions of centers. To improve efficiency, we have designed a two-stage decomposable lower bound, the solution of which can be derived in a closed form. In addition, we also propose several acceleration techniques to narrow down the region of centers, including bounds tightening, sample reduction, and parallelization. Extensive studies on synthetic and real-world datasets have demonstrated that our algorithm can solve the K-center problems to global optimal within 4 hours for ten million samples in the serial mode and one billion samples in the parallel mode. Moreover, compared with the state-of-the-art heuristic methods, the global optimum obtained by our algorithm can averagely reduce the objective function by 25.8% on all the synthetic and real-world datasets.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
一场堆放堡拥堵游戏(SCG)是一个双重计划,领导者的目标是通过预测和操纵均衡状态来最大程度地提高自己的收益,在该状态下,追随者通过玩拥堵游戏而定居。大规模的SCG以其顽固性和复杂性而闻名。这项研究通过可区分的编程来处理SCG,该编程将机器学习的最新发展与常规方法结合在一起。核心思想以模仿logit动力学形成的进化路径代表低级平衡问题。它可以在朝着平衡的演化路径上使用自动分化,从而导致双环梯度下降算法。我们进一步表明,对低级平衡的固定可能是一个自我强加的计算障碍。取而代之的是,领导者只能沿着追随者的演变路径向前看几个步骤,同时通过共同进化过程更新其决策。启示产生了一种单循环算法,该算法在记忆消耗和计算时间方面都更有效。通过涵盖广泛基准问题的数值实验,我们发现单循环算法始终达到解决方案质量和效率之间的良好平衡,不仅优于标准的双环实现,而且优于文献中的其他方法。重要的是,我们的结果既突出了“充分期待”的浪费和“零预期”的危险。如果需要快速启发术来解决一个非常大的SCG,则提议的单环算法具有一步的外观,使其成为理想的候选人。
translated by 谷歌翻译
面向目标的意见单词提取(TOWE)是一项精细的情感分析任务,旨在从句子中提取给定意见目标的相应意见单词。最近,深度学习方法在这项任务上取得了显着进步。然而,由于昂贵的数据注释过程,TOWE任务仍然遭受培训数据的稀缺性。有限的标记数据增加了测试数据和培训数据之间分配变化的风险。在本文中,我们建议利用大量未标记的数据来通过增加模型对变化分布变化的暴露来降低风险。具体而言,我们提出了一种新型的多透明一致性正则化(MGCR)方法,以利用未标记的数据并设计两个专门用于TOWE的过滤器,以在不同的粒度上过滤嘈杂的数据。四个TOWE基准数据集的广泛实验结果表明,与当前的最新方法相比,MGCR的优越性。深入分析还证明了不同粒度过滤器的有效性。我们的代码可在https://github.com/towessl/towessl上找到。
translated by 谷歌翻译
目的:心电图(ECG)信号通常会遭受噪声干扰,例如基线徘徊。心电图信号的高质量和高保真重建对于诊断心血管疾病具有重要意义。因此,本文提出了一种新型的心电图基线徘徊和降噪技术。方法:我们以特定于心电图信号的条件方式扩展模型,即心电图基线徘徊和噪声去除(Descod-ECG)的基于深度分数的扩散模型。此外,我们部署了一个多拍的平均策略,以改善信号重建。我们在QT数据库和MIT-BIH噪声应力测试数据库上进行了实验,以验证该方法的可行性。采用基线方法进行比较,包括传统的基于数字过滤器和基于深度学习的方法。结果:数量评估结果表明,所提出的方法在四个基于距离的相似性指标(平方距离的总和,最大绝对正方形,根距离的百分比和余弦相似性)上获得了出色的性能,并具有3.771 $ \ pm $ 5.713 au,$ 5.713 au, 0.329 $ \ pm $ 0.258 au,40.527 $ \ pm $ 26.258 \%和0.926 $ \ pm $ 0.087。与最佳基线方法相比,这至少导致了至少20%的总体改进。结论:本文证明了Descod-ECG的最新性能用于ECG噪声,该噪声可以更好地近似真实的数据分布和在极端噪声腐败下较高的稳定性。意义:这项研究是最早扩展基于条件扩散的生成模型以去除ECG噪声的研究之一,并且Descod-ECG具有广泛用于生物医学应用的潜力。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
从视频中获得地面真相标签很具有挑战性,因为在像素流标签的手动注释非常昂贵且费力。此外,现有的方法试图将合成数据集的训练模型调整到真实的视频中,该视频不可避免地遭受了域差异并阻碍了现实世界应用程序的性能。为了解决这些问题,我们提出了RealFlow,这是一个基于期望最大化的框架,可以直接从任何未标记的现实视频中创建大规模的光流数据集。具体而言,我们首先估计一对视频帧之间的光流,然后根据预测流从该对中合成新图像。因此,新图像对及其相应的流可以被视为新的训练集。此外,我们设计了一种逼真的图像对渲染(RIPR)模块,该模块采用软磁性裂口和双向孔填充技术来减轻图像合成的伪像。在E-Step中,RIPR呈现新图像以创建大量培训数据。在M-Step中,我们利用生成的训练数据来训练光流网络,该数据可用于估计下一个E步骤中的光流。在迭代学习步骤中,流网络的能力逐渐提高,流量的准确性以及合成数据集的质量也是如此。实验结果表明,REALFLOW的表现优于先前的数据集生成方法。此外,基于生成的数据集,我们的方法与受监督和无监督的光流方法相比,在两个标准基准测试方面达到了最先进的性能。我们的代码和数据集可从https://github.com/megvii-research/realflow获得
translated by 谷歌翻译
本文研究了关于Riemannian流形的大规模优化问题,其目标函数是负面概要损失的有限总和。这些问题在各种机器学习和信号处理应用中出现。通过在歧管环境中引入Fisher信息矩阵的概念,我们提出了一种新型的Riemannian自然梯度方法,可以将其视为自然梯度方法的自然扩展,从欧几里得环境到歧管设置。我们在标准假设下建立了我们提出的方法的几乎纯净的全球融合。此外,我们表明,如果损失函数满足某些凸度和平稳性条件,并且输入输出图满足了雅各布稳定条件,那么我们提出的方法享有局部线性 - 或在Riemannian jacobian的Lipschitz连续性下,输入输出图,甚至二次 - 收敛速率。然后,我们证明,如果网络的宽度足够大,则可以通过具有批归归量的两层完全连接的神经网络来满足Riemannian Jacobian稳定性条件。这证明了我们的收敛率结果的实际相关性。对机器学习产生的应用的数值实验证明了该方法比最先进的方法的优势。
translated by 谷歌翻译
随机梯度下降(SGD)是一种深入学习神经网络中广泛使用的算法,已吸引了对其成功背后的理论原理的持续研究。最近的一项工作发现了神经权重的方差与SGD下溶液附近损失功能的景观平坦之间的通用逆差异 - 流动性(IVF)关系[Feng&tu,PNAS 118,0027(2021)]。为了调查这种似乎违反统计原理的行为,我们部署了随机分解来分析SGD的动力学特性。该方法构建了可以通过Boltzmann分布使用的真实“能量”函数。新能源与通常的成本函数不同,并解释了SGD下的IVF关系。我们进一步验证了冯工作中确定的缩放关系。我们的方法可能会弥合经典统计力学与新兴人工智能学科之间的差距,并有可能对后者更好地算法。
translated by 谷歌翻译